基于系统生物学研究策略的肝细胞癌预测模型及肝脏综合知识库LiverAtlas的构建

基于系统生物学研究策略的肝细胞癌预测模型及肝脏综合知识库LiverAtlas的构建

作者:师大云端图书馆 时间:2015-06-06 分类:论文格式 喜欢:4365
师大云端图书馆

【摘要】肝脏(Liver)是人体最大的内脏器官和消化腺,对维持人体的正常生命活动发挥着重要作用。其功能复杂多样,主要包括:分泌胆汁、调节蛋白质、脂肪和碳水化合物的新陈代谢、储藏淀粉、解毒、造血和凝血作用等。近年来,随着大规模“组学”研究的兴起和“人类肝脏蛋白质组计划(HumanLiverProteomeProject,HLPP)”的顺利实施,大量肝脏相关的生物学数据被产出,并散布于不同的生物学数据库或科学文献,不便于科学家提取、利用和数据整合。肝细胞癌(Hepatocellularcarcinoma,HCC)是恶性程度最高的肿瘤之一,其发病率和病死率分别位居全球恶性肿瘤第五和第四位。我国是肝细胞癌的高发区,每年新发病例超过三十五万,病死率占恶性肿瘤死因的第二位。肝细胞癌易于侵犯门静脉形成癌栓,导致癌细胞的播散和远处转移。因其临床表现隐匿,不易发现,一经确诊,往往已经处于中晚期,临床预后极为不佳。可见,提高肝细胞癌的早期发现和综合治疗水平具有重要的临床价值和社会意义,这就需要探寻更多、更可靠的肝细胞癌生物标志物、建立更精准的肝细胞癌早期诊断方法。针对上述问题,本课题利用生物信息学的数据处理技术,一方面,构建了新型、高效的肝细胞癌预测模型;另一方面,通过收集、归纳并整理现有肝脏相关的生物学数据,构建了肝脏综合知识库-LiverAtlas。从而为肝脏的系统生物学研究奠定数据基础和技术基础。第一部分基于系统生物学研究策略的肝细胞癌预测模型的构建[目的]旨在利用系统生物学分析策略,结合肝细胞癌差异表达数据分析与蛋白质相互作用网络的拓扑特征分析,筛选与肝细胞癌密切相关的候选生物标志物,并结合生物信息学方法构建肝细胞癌预测模型,从而提高肝细胞癌的早期诊断水平。[方法](1)从GeneExpressionOmnibus(GEO,http://www.ncbi.nlm.nih.gov/geo/)数据库收集三个基因表达谱数据集(肝细胞癌组织对照非癌肝脏组织);(2)利用ONCOMINE(https://www.oncomine.org)分析平台筛选共存性差异表达基因,结合基因注释信息,总结基因差异表达状况与肝细胞癌不同生物学行为的关系并确定对肝细胞癌进展具有重要意义的功能基因;(3)利用GeneGOMeta-Core软件构建上述功能基因的相互作用网络,并系统分析其拓扑特征;(4)筛选网络中发挥重要功能并具有紧密相互作用关系的hub基因,针对其表达量,采用偏最小二乘法,构建肝细胞癌预测模型;(5)采用独立测试集验证及五倍交叉验证对肝细胞癌预测模型的性能进行综合评估;(6)运用前列腺癌的相关数据,采用上述建模方法,构建前列腺癌预测模型并对其性能进行评估;(7)对两个肝细胞癌候选生物标志物-MAPK1蛋白和NCOA2蛋白进行基于临床样本的免疫组织化学染色验证。[结果](1)利用ONCOMINE数据分析平台,对比3个肝细胞癌与非癌肝脏组织间的基因表达谱数据集,筛选出一批3个数据集共同鉴定到的、与肝细胞癌进展密切相关的功能基因(其中包括116个在肝细胞癌组织中表达上调的基因和111个在肝细胞癌组织中表达下调的基因);(2)利用GeneGo-MetaCore软件构建上述功能基因的相互作用网络,并筛选出在网络中发挥重要功能并具有紧密相互作用关系的17个hub基因(all-edgecutoff>30且hidden-edge<50%)作为肝细胞癌的候选生物标志物,其中包括10个在肝细胞癌组织中表达上调的基因和7个在肝细胞癌组织中表达下调的基因;(3)基于上述hub基因的表达量,运用偏最小二乘法,构建肝细胞癌预测模型。经独立测试集验证表明该模型的预测准确性大于85.00%,接受者操作特性曲线下面积大于0.90;经五倍交叉验证表明该模型的预测性能良好且稳定;(4)不断变换进入模型的hub与non-hub基因的比例(每个比例随机重复100次),当hub基因不变,成比例地加入non-hub基因,对模型的预测性能没有显著提高(p>0.05);若成比例地减少模型中的hub基因并加入non-hub基因,随着进入模型的non-hub基因个数的增加,模型的预测性能显著下降(p<0.05);(5)采用同样建模方法,运用前列腺癌组织的基因表达谱数据,构建前列腺癌预测模型,独立测试集验证结果显示该模型预测准确性为84.79±6.53%,接受者操作特性曲线下面积为0.82±0.10;不断变换进入前列腺癌预测模型的hub与non-hub基因的比例,结果同肝细胞癌预测模型;(6)MAPK1蛋白和NCOA2蛋白在肝细胞癌组织中的表达水平均显著高于非癌肝脏组织(均p<0.01)。其中MAPK1蛋白的表达水平与肝细胞癌组织的分化程度呈负相关(p=0.03),而NCOA2蛋白的表达水平则与肝细胞癌组织的Edmondson-Steiner分级呈正相关(p=0.04)。[结论]本研究通过整合肝细胞癌组织中的分子表达特征及肝细胞癌相关分子网络的拓扑特征,筛选出一批肝细胞癌候选生物标志物并建立一种新型的肝细胞癌预测模型。该模型性能良好且稳定。本研究的建模方法还适用于其他肿瘤,对肿瘤早期诊断具有重要的临床意义。第二部分肝脏综合知识库—LiverAtlas的构建[目的]旨在构建LiverAtlas数据库——肝脏相关的生物学综合知识库,同时为用户提供方便、直观、可视化的查询分析系统。[方法](1)LiverAtlas数据库的架构设计;(2)LiverAtlas数据库的数据收集:从53个现有生物学及文献数据库中收集肝脏相关的转录组数据集,正常肝脏(特异性)表达基因/蛋白质,肝细胞癌差异表达基因/蛋白质,肝脏相关分子的相互作用信息、肝脏相关蛋白质的翻译后修饰信息、肝脏相关分子参与的通路信息(信号转导通路及代谢通路)及肝脏疾病相关基因/蛋白质;(3)LiverAtlas数据库的数据整理:将不同类型的基因和蛋白质编号分别统一为EntrezGeneID和UniprotID,再对每个基因或蛋白质给予唯一的LiverAtlasGeneID和LiverAtlasProteinID,LiverAtlas数据库中的所有信息均通过LiverAtlasGeneID和LiverAtlasProteinID相互联系;(4)LiverAtlas数据库的数据质量评估:采用半定量评价方法,综合考虑数据来源的鉴定方法及来源的数目,计算数据库中每条信息的质量评分;(5)LiverAtlas数据库的构建;(6)为寻找与肝脏生理和病理相关的规律,对LiverAtlas数据库中所储存的信息进行深入的数据挖掘和分析;(7)应用举例:运用LiverAtlas数据库中的肝细胞癌差异表达数据和蛋白质相互作用数据进行肝细胞癌候选生物标志物的筛选。[结果](1)LiverAtlas数据库的基本架构:整合肝脏相关的基因组学、肝脏转录组学、肝脏蛋白质组学、肝脏代谢组学、肝脏相关的信号通路及肝脏疾病等六部分生物学知识,通过Web提供服务,用户通过输入关键词(基因、蛋白质或疾病等),系统查询相关信息,经计算分析,输出可视化结果;(2)LiverAtlas数据库包括的数据内容:Ⅰ)19801个肝脏相关基因,其中,117个(5.91%)为肝脏特异性表达基因,4797个(24.23%)为肝细胞癌差异表达基因;Ⅱ)50265个肝脏相关蛋白质,其中,45949个(91.41%)经人类肝脏蛋白质组学实验验证,162个(0.32%)为肝脏特异性表达蛋白质,1210个(2.41%)为肝细胞癌组织/血浆中特异性表达蛋白质;Ⅲ)353914对蛋白质相互作用,其中,643条(0.18%)经人类肝脏蛋白质组学实验验证;Ⅳ)88863条蛋白质翻译后修饰信息,其中,最常见的修饰类型为磷酸化修饰[80839(90.97%)],另有2252条(2.53%)蛋白质翻译后修饰信息经人类肝脏蛋白质组学实验验证;Ⅴ)639条由肝脏相关蛋白质或基因参与的通路信息,其中,487条(76.21%)条为代谢通路,152条(23.79%)条为信号转导通路;Ⅵ)59种肝脏疾病及其相关的18243条分子事件,包括这些疾病相关的基因、蛋白质、通路及文献信息。(3)根据统计结果,LiverAtlas数据库中,中、高可信度的数据所占比例接近98%;(4)利用LiverAtlas数据库中的肝细胞癌差异表达数据和蛋白质相互作用网络分析,筛选得到9个肝细胞癌候选生物标志物;(5)采用肝细胞癌临床组织样本,经免疫组织化学染色实验验证上述肝细胞癌候选生物标志物,发现骨形态形成蛋白4、骨形态形成蛋白7和肌球蛋白Ⅵ与肝细胞癌的恶性进展密切相关。[结论]本研究构建的肝脏相关生物学综合知识库-LiverAtlas,为用户提供规范的数据存储、简便的数据提取和查询系统;该数据库为肝脏研究领域的科研人员提供良好的信息平台,有利于从整体上了解不同肝脏生理及病理过程的分子机制;方便用户收集肝脏相关的生物学信息,为科研人员从整体着手、系统研究肝脏提供有力工具。
【作者】张彦琼;
【导师】贺福初;
【作者基本信息】北京协和医学院,医学遗传学,2012,博士
【关键词】肝细胞癌;基因表达;相互作用网络;生物标志物;预测模型;组学;数据库;肝脏生理;肝脏病理;生物标志物发现;药靶;

【参考文献】
[1]侯贺.缺失数据处理方法的研究及其在软测量技术中的应用[D].东北大学,控制理论与控制工程,2011,硕士.
[2]闫宏强,韩夏.互联网国际治理问题综述[J].电信网技术.2005(10)
[3]王传琨.损伤控制性手术在肝破裂出血治疗中的应用体会[D].大连医科大学,外科学,2012,硕士.
[4]汪杰.基于UG的压气机叶轮造型系统设计研究[D].南京理工大学,机械制造及其自动化,2013,硕士.
[5]刘利华.上市公司中小股东权益保护的法律思考[D].郑州大学,民商法学,2013,硕士.
[6]刘洋.RC框—剪结构倒塌失效模式及设计方法研究[D].安徽建筑工业学院,结构工程,2012,硕士.
[7]管夕茂.唐宋“债帅”研究[D].华东师范大学,中国古代史,2013,硕士.
[8]田锋.MSTP城域网中网络可靠性问题的研究[D].东北大学,电子与通信工程,2010,硕士.
[9]金聪,张雅莉,吴国军.宝钢三期工程250t转炉的技术特点[J].一重技术.1996(04)
[10]张宏图.黄龙公司燃煤锅炉节能改造工程建设项目管理研究[D].吉林大学,项目管理,2014,硕士.
[11]马伊民.有效载荷综合测试、检测系统[J].空间电子技术.2002(02)
[12]王雷.高铁站综合体复合功能的一体化设计研究[D].北京交通大学,建筑与土木工程(专业学位),2013,硕士.
[13]梅继兰.二氧化钛负载的多金属氧酸盐微米管的制备和光催化性质的研究[D].东北师范大学,2014.
[14]林军海.基于纠错编码技术的多功能水印算法研究[D].杭州电子科技大学,信号与信息处理,2013,硕士.
[15]曾义方.ATM技术的特点及应用[J].电信工程技术与标准化.1996(02)
[16]董双艳.我国纳税担保法律制度研究[D].河北经贸大学,经济法学,2013,硕士.
[17]徐丙垠,薛永端,李天友,高厚磊,束洪春,仉志华.智能配电网广域测控系统及其保护控制应用技术[J].电力系统自动化,2012,18:2-9.
[18]刘延力.竖轴式潮流能发电控制研究[D].大连理工大学,电力系统及其自动化,2013,硕士.
[19]史林启,孙平川.序言[J].高分子通报,2013,01:2-3.
[20]王燕兵.露天转井工开采中边坡稳定性数值模拟研究[D].内蒙古科技大学,采矿工程,2013,硕士.
[21]王灵芝.江苏省高校体育教育专业羽毛球专修课程教学大纲的分析与研究[D].苏州大学,体育教学,2012,硕士.
[22]陈超.全局拓扑线性化理论的推广[D].福州大学,应用数学,2004,硕士.
[23]许美玲.碳硼烷硫醚及硼化合物的合成研究[D].济南大学,应用化学,2012,硕士.
[24]石瑞红.器官型海马脑片水平抑制蛋白酶体的活性对tau蛋白代谢的影响及其机制研究[D].华中师范大学,动物学,2012,硕士.
[25]王娅.三维虚拟人表情合成技术的研究[D].西南交通大学,计算机应用技术,2013,硕士.
[26]崔冲冲.外商直接投资对产业结构的影响及对策[D].沈阳师范大学,政治经济学,2013,硕士.
[27]姬秋华.基于主从结构的微电网综合控制策略研究[D].南京航空航天大学,电机与电器,2013,硕士.
[28]邓雪莉.若干线性算子逼近问题的研究[D].内蒙古师范大学,基础数学,2013,硕士.
[29]王唯佳.AlGaAs/GaAs HEMT电磁脉冲损伤机理研究[D].西安电子科技大学,微电子学与固体电子学,2012,硕士.
[30]林靖博.通用型自动变速箱总成测试系统的设计与实现[D].烟台大学,电子与通信工程,2014,硕士.
[31]林立恒.科技信息[J].冶金自动化,1999,02:56.
[32]王磊.提高致密油开发效果的实验研究[D].中国地质大学(北京),油气田开发工程,2013,硕士.
[33]陈爱玲,杨根科,吴智铭.基于混合离散免疫算法的轧制计划编排[J].控制与决策,2007,06:716-720.
[34]郑祥明.石煤提钒新工艺研究[D].湘潭大学,环境工程,2003,硕士.
[35]陈良,夏文莉,何世伟,周礼.浙江大学青年人才科研现状调查与对策研究[J].研究与发展管理,2014,04:130-133.
[36]吴越.北京市怀柔区政府投融资平台投融资模式研究[D].北京交通大学,2014.
[37]马明霞.民族地区生态移民金融服务问题研究[D].宁夏大学,中国少数民族史,2014,博士.
[38]沈伟.露易丝·厄尔德科小说《爱药》中平衡和谐的两性共处[D].南京大学,英语语言文学,2013,硕士.
[39]刘树山.砂卵石地层盾构施工对建筑物的影响分析及技术措施[J].城市轨道交通研究.2008(06)
[40]陈瑞安.杭州市社区卫生服务中心综合评价指标体系研究[D].浙江大学,社会医学与卫生事业管理学,2004,硕士.
[41]潘则宇.沈阳市内五区老年人体育锻炼与生活质量关系研究[D].沈阳师范大学,体育教育训练学,2014,硕士.
[42]张强.现代汉语工具成分研究[D].扬州大学,语言学及应用语言学,2011,硕士.
[43]王改丽.基于非合作博弈论的认知无线电频谱共享改进算法研究[D].西南交通大学,电子与通信工程,2014,硕士.
[44]李丹卉.早期系统肠道刺激预防机械通气患者胃肠功能障碍的研究[D].南方医科大学,护理学,2012,硕士.
[45]李光含.多托辊电子皮带秤对大块物料的适应性[J].冶金自动化,1986,03:24-28+63-64.
[46]杜翔.基于循环经济的建筑固体废弃物逆向物流研究[D].武汉科技大学,管理科学与工程,2012,硕士.
[47]王静波,王尚旭,袁三一,肖梦雄.基于多道局部复值相关的地震信号边缘检测[J].石油地球物理勘探,2014,01:190-196+306-307.
[48]徐胜松.60MN水压机动力学建模与控制系统设计[D].燕山大学,控制工程,2014,硕士.
[49]侯建元.基于虚拟人技术的手语合成研究[D].天津理工大学,计算机应用技术,2013,硕士.
[50]滕琳晶.现代汉语模糊词义的动态变化研究[D].山东师范大学,汉语言文字学,2013,硕士.

相关推荐
更多